spark的优化

您所在的位置:网站首页 spark groupbykey数据倾斜 spark的优化

spark的优化

2023-07-15 12:45| 来源: 网络整理| 查看: 265

1.避免创建重复的RDD;     2.尽可能使用同一个RDD     3.对多次使用的RDD进行持久化     4.尽量避免使用shuffle类算子     5.使用map-side预聚合的shuffle操作     6.使用高性能的算子     7.广播大变量     8.使用Kryo优化序列化性能: java Kryo     9.优化数据结构:     对象,字符串,集合都比较占用内存     字符串代替对象     数组 代替集合     使用原始类型(比如Int、Long)替代字符串     优化数据结构     10.资源调优     11.spark调优数据倾斜调优:map filter

数据倾斜的概念:一批数据中相同key的数据过多而导致其他reducetask跑完,而一个reducetask迟迟跑不完,甚至触发OOM的现象,称为数据倾斜。

解决:

1、使用Hive ETL预处理数据     2、过滤少数导致倾斜的key     3、提高shuffle操作的并行度     4、两阶段聚合(局部聚合+全局聚合)     5、将reduce join转为map join     6、采样倾斜key并分拆join操作     7、使用随机前缀和扩容RDD进行join     8、多种方案组合使用



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3